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本 文 目 标 


30 分 钟 内 让 你 明白 正则 表达 式 是 什么 ， 并 对 它 有 一 些 基 本 的 了 解 ， 让 你 可 以 在 自己 的 程序 或 
网 页 里 使 用 它 。 


声明 


本 文 非 原创 ， 是 改编 自 《 正 则 表达 式 30 分 钟 入 门 教程 》， 因 为 原作 者 的 排版 个 人 不 是 很 喜 
欢 ， 而 且 内 容 上 个 人 觉得 有 些 地 方 需要 改进 ， 所 以 在 gitbook 上 开 了 一 本 书 。 


联系 我 


。 主页 : liuliqiang.info 
。 邮箱 : liqianglau@outlook.com 


如 何 使 用 本 教程 


别 被 下 面 那些 复杂 的 表达 式 吓 倒 ， 只 要 跟着 我 一 步 一 步 来 ， 你 会 发 现 正则 表达 式 其 实 并 没有 
想像 中 的 那么 困难 。 当 然 ， 如 果 你 看 完了 这 篇 教程 之 后 ， 发 现 自己 明白 了 很 多 ， 却 又 几乎 什 
么 都 记 不 得 ， 那 也 是 很 正常 的 一 一 我 认为 ， 没 接触 过 正则 表达 式 的 人 在 看 完 这 篇 教程 后 ， 能 
把 提 到 过 的 语法 记 住 80% 以 上 的 可 能 性 为 零 。 这 里 只 是 让 你 明白 基本 的 原理 ， 以 后 你 还 需要 
多 练习 ， 多 使 用 ， 才 能 熟练 掌握 正则 表达 式 。 

除了 作为 入 门 教程 之 外 ， 本 文 还 试图 成 为 可 以 在 日 常 工作 中 使 用 的 正则 表达 式 语法 参考 手 

册 。 就 作者 本 人 的 经 历来 说 ， 这 个 目标 还 是 完成 得 不 错 的 一 一 你 看 ， 我 自己 也 没 能 把 所 有 的 
东西 记 下 来 ， 不 是 吗 ? 


本 文 将 会 对 特别 的 字符 做 一 些 儿 体 ， 加 粗 处 理 ， 希 望 读者 在 阅读 的 时 候 可 以 多 体会 和 留心 这 
些 细节 ， 从 而 有 更 深刻 的 了 解 。 


正则 表达 式 到 底 是 什么 东西 ? 


在 编写 处 理 字符 串 的 程序 或 网 页 时 ， 经 常会 有 查找 符合 某 些 复杂 规则 的 字符 串 的 需要 。 正 则 
表达 式 就 是 用 于 描述 这 些 规则 的 工具 。 换 名 话说 ， 正 则 表达 式 就 是 记录 文本 规则 的 代码 。 


很 可 能 你 使 用 过 Windows/Dos 下 用 于 文件 查找 的 通配符 (wildcard)， 也 就 是 ”和 '?' 。 
如 果 你 想 查找 某 个 目录 下 的 所 有 的 Word 文 档 的 话 ， 你 会 搜索 *.doc。 在 这 里 ，"* "会 被 解释 成 
任意 的 字符 串 。 


和 通配符 类 似 ， 正 则 表达 式 也 是 用 来 进行 文本 匹配 的 工具 ， 只 不 过 比 起 通配符 ， 它 能 更 精确 
地 描述 你 的 需求 一 一 当然 ， 代 价 就 是 更 复杂 一 一 比如 你 可 以 编写 一 个 正则 表达 式 ， 用 来 查找 
所 有 以 0 开头， 后 面 跟着 2-3 个 数字 ， 然 后 是 一 个 连 字 号 “-”， 最 后 是 7 或 8 位 数字 的 字符 串 ( 像 
010-12345678 或 0376-7654321)。 





学 习 正 则 表达 式 的 最 好 方法 是 从 例子 开始 ， 理 解 例子 之 后 再 自己 对 例子 进行 修改 ， 实 验 。 下 
面 给 出 了 不 少 简单 的 例子 ， 并 对 它们 作 了 详细 的 说 明 。 

假设 你 在 一 篇 英文 小 说 里 查找 hi， 你 可 以 使 用 正则 表达 式 "hi"。 

这 几乎 是 最 简单 的 正则 表达 式 了 ， 它 可 以 精确 匹配 这 样 的 字符 串 : 由 两 个 字符 组 成 ， 前 一 个 
字符 是 h, 后 一 个 是 i。 

通常 ， 处 理 正 则 表达 式 的 工具 会 提供 一 个 忽略 大 小 号 的 选项 ， 如 果 选 中 了 这 个 选项 ， 它 可 以 
匹配 hi, Hl, Hi, hl 这 四 种 情况 中 的 任意 一 种 。 


不 幸 的 是 ， 很 多 单词 里 包含 hi 这 两 个 连续 的 字符 ， 比 如 him, history, high 等 等 。 用 hi 来 
查找 的 话 ， 这 里 边 的 所 也 会 被 找 出 来 。 如 果 要 精确 地 查找 hi 这 个 单词 的 话 ， 我 们 应 该 使 用 
NbhiNxb 。 

\b 是 正则 表达 式 规 定 的 一 个 特殊 代码 (好 吧 ， 某 些 人 叫 它 元 字符 ，metacharacter) ， 代 表 
着 单词 的 开头 或 结尾 ， 也 就 是 单词 的 分 界 处 。 虽 然 通常 英文 的 单词 是 由 空格 ， 标 点 符号 或 者 
换行 来 分 隔 的 ， 但 是 \b 并 不 匹配 这 些 单词 分 隔 字符 中 的 任何 一 个 ， 它 只 匹配 一 个 位 置 。 
如 果 需 要 更 精确 的 说 法 ， \b 匹配 这 样 的 位 置 : 它 的 前 一 个 字符 和 后 一 个 字符 不 全 是 (一 个 是 ， 
一 个 不 是 或 不 存在 ) Nw ° 


假如 你 要 找 的 是 所 后 面 不 远 处 跟着 一 个 Lucy， 你 应 该 用 \bhi\p.*\bLucy\b 。 
这 里 ， .是 另 一 个 元 字符 ， 匹 配 除了 换行 符 以 外 的 任意 字符 。 * 同样 是 元 字符 ， 不 过 它 代 
表 的 不 是 字符 ， 也 不 是 位 置 ， 而 是 数量 一 它 指 定 前 边 的 内 容 可 以 连续 重复 使 用 任意 次 以 使 
整个 表达 式 得 到 匹配 。 因 此 ， ,* 连 在 一 起 就 意味 着 任意 数量 的 不 包含 换行 的 字符 。 现 在 
\bhi\b.*\bLucy\b 的 意思 就 很 明显 了 : 先是 一 个 单词 hi, 然 后 是 任意 个 任意 字符 (但 不 能 是 换 
行 )， 最 后 是 Lucy 这 个 单词 。 
换行 符 就 是 '\n' ,ASCII 编 码 为 10( 十 六 进 制 0x0A) 的 字符 。 
如 果 同 时 使 用 其 它 元 字符 ， 我 们 就 能 构造 出 功能 更 强大 的 正则 表达 式 。 上 比如 下 面 这 个 例子 : 
Qo\d\d-\d\d\d\d\d\d\d\d 
匹配 这 样 的 字符 串 : 

以 0 开头 ， 然 后 是 两 个 数字 ， 然 后 是 一 个 连 字号 “-"， 最 后 是 8 个 数字 (也 就 是 中 国 的 电话 号 


码 。 当 然 ， 这 个 例子 只 能 匹配 区 号 为 3 位 的 情形 ) 。 


这 里 的 \d 是 个 新 的 元 字符 ， 匹 配 一 位 数字 (0， 或 1， 或 2， 或 ......)。 - 不 是 元 字符 ， 只 匹 
配 它 本 身 一 一 连 字符 (或 者 减 号 ， 或 者 中 横 线 ， 或 者 随 你 怎么 称呼 它 )。 


为 了 避免 那么 多 烦人 的 重复 ， 我 们 也 可 以 这 样 写 这 个 表达 式 : 


QO\d{2}-\d{8} 


这 里 \d 后 面 的 {2}({8}) 的 意思 是 前 面 \d 必须 连续 重复 匹配 2 次 (8 次 ) 。 


测试 正则 表达 式 


如 果 你 不 觉得 正则 表达 式 很 难 读 写 的 话 ， 要 么 你 是 一 个 天 才 ， 要 么 ， 你 不 是 地 球 人 人。 正则 表 
达 式 的 语法 很 令 人 头 疫 ， 即 使 对 经 常 使 用 它 的 人 来 说 也 是 如 此 。 由 于 难于 读 写 ， 容 易 出 错 ， 
所 以 找 一 种 工具 对 正则 表达 式 进 行 测试 是 很 有 必要 的 。 


代码 库 


不 同 的 环境 下 正则 表达 式 的 一 些 细节 是 不 相同 的 ， 本 教程 介绍 的 是 python 2.7 环境 下 正则 表 
达 式 的 行为 ， 所 以 ， 我 向 你 推荐 的 是 python 中 一 个 用 于 方便 创建 正则 表达 式 的 lib， 名 字 
为 : PythonVerbalExpressions， 安 装 也 很 方便 ， 直 接 使 用 pip 安装 : 


pip install VerbalExpressions 


调 会 工具 

如 果 你 想 要 GUI 调试 工具 的 话 ， 各 个 平台 都 有 很 多 不 错 的 工具 ， 但 是 ， 我 个 人 比较 喜欢 跨 平 
台 的 东西 ， 所 以 我 使 用 的 是 Chrome 扩展 ， 名 字 叫 做 : RegExp Tester 

扩展 安装 地 址 : 点 击 安装 


扩展 截图 : 
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测试 正则 表达 式 


一 /rwr 人 大 
元 丁 付 

现在 你 已 经 知道 几 个 很 有 用 的 元 字符 了 ， 如 \b,.,* ， 还 有 \d， 正则 表达 式 里 还 有 更 多 的 元 
字符 ， 比 如 \s 匹配 任意 的 空白 符 ， 包 括 空格 ， 制 表 符 (Tab)， 换 行 符 ， 中 文 全 角 空 格 

等 。 \w 匹配 字母 或 数字 或 下 划 线 或 汉字 等 。 


对 中 文 /汉字 的 特殊 处 理 是 由 python 提供 的 正则 表达 式 引 擎 在 Python 2 不 是 原生 支持 的 ， 需 
要 做 一 些 转换 ，Python 3 是 原生 支持 的 ; 其 它 语言 环境 下 的 具体 情况 请 查看 相关 文档 。 





下 面 来 看 看 更 多 的 例子 : 
\ba\w*\b 
匹配 以 字母 a 开头 的 单词 一 一 先是 某 个 单词 开始 处 (\b)， 然 后 是 字母 a， 然 后 是 任意 数量 的 字母 


或 数字 (\w*) ， 最 后 是 单词 结束 处 (\b)。 


好 吧 ， 现 在 我 们 说 说 正则 表达 式 里 的 单词 是 什么 意思 吧 : 就 是 不 少 于 一 个 的 连续 的 \W。 不 
错 ， 这 与 学 习 美 文 时 要 背 的 成 千 上 万 个 同名 的 东西 的 确 关系 不 大 :) 


\d+ 匹配 1 个 或 更 多 连续 的 数字 。 这 里 的 + 是 和 * 类 似 的 元 字符 ， 不 同 的 是 * 匹 配 重 复 任 意 
次 (可 能 是 0 次 )， 而 + 则 匹配 重复 1 次 或 更 多 次 。 


\b\w{6}\b 匹配 刚好 6 个 字符 的 单词 。 


表 1. 常 用 的 元 字符 


代码 说 明 

匹配 除 换行 符 以 外 的 任意 字符 

Ww 匹配 字母 或 数字 或 下 划 线 或 汉字 

\S 匹配 任意 的 空白 符 

\d 匹配 数字 

\b 匹配 单词 的 开始 或 结 

后 匹配 字符 串 的 开始 

$ 匹配 字符 串 的 结束 


正则 表达 式 引擎 通常 会 提供 一 个 "测试 指定 的 字符 囊 是 否 匹 配 一 个 正则 表达 式 " 的 方法 ， 如 
JavaScript 里 的 RegExp.test() 方法 或 Python 里 的 re.match() 方法 。 这 里 的 匹配 是 指 是 字 
符 串 里 有 没有 符合 表达 式 规则 的 部 分 。 如 果 不 使 用 ^ 和 $ 的话 ， 对 于 \d{5,12} 而 言 ， 使 
用 这 样 的 方法 就 只 能 保证 字符 串 里 包含 5 到 12 连 续 位 数字 ， 而 不 是 整个 字符 串 就 是 5 到 12 位 数 
字 。 


元 字符 ^ (和 数字 6 在 同一 个 键 位 上 的 符号 ) 和 $ 都 匹配 一 个 位 置 ， 这 和 \b 有 点 类 
似 。 ^ 匹配 你 要 用 来 查找 的 字符 串 的 开头 ，$ 匹配 结尾 。 这 两 个 代码 在 验证 输入 的 内 容 时 
非常 有 用 ， 比 如 一 个 网 站 如 果 要 求 你 填写 的 QQ 号 必须 为 5 位 到 12 位 数字 时 ， 可 以 使 用 : 


A\d{5,12}$° 


这 里 的 {5,12} 和 前 面 介 绍 过 的 {2} 是 类 似 的 ， 只 不 过 {2} 匹配 只 能 不 多 不 少 重复 2 
次 ， {5,12} 则 是 重复 的 次 数 不 能 少 于 5 次 ， 不 能 多 于 12 次 ， 否 则 都 不 匹配 。 
因为 使 用 了 ^ 和 $ ， 所 以 输入 的 整个 字符 串 都 要 用 来 和 \d{5,12} 来 匹配 ， 也 就 是 说 整个 


输入 必须 是 5 到 12 个 数字 ， 因 此 如 果 输 入 的 QQ 号 能 匹配 这 个 正则 表达 式 的 话 ， 那 就 符合 要 求 
了 。 


和 忽略 大 小 写 的 选项 类 似 ， 有 些 正则 表达 式 处 理工 具 还 有 一 个 处 理 多 行 的 选项 。 如 果 选 中 了 
这 个 选项 ，^ 和 $ 的 意义 就 变 成 了 匹配 行 的 开始 处 和 结束 处 。 


字符 转 义 


如 果 你 想 查 找 元 字符 本 身 的 话 ， 比 如 你 查找 ,， 或 者 * ,就 出 现 了 问题 : 你 没 办 法 指定 它 
们 ， 因 为 它们 会 被 解释 成 别 的 意思 。 这 时 你 就 得 使 用 \、 来 取消 这 些 字符 的 特殊 意义 。 因 此 ， 
你 应 该 使 用 \， 和 \* 。 当 然 ， 要 查找 \ 本身 ， 你 也 得 用 \、\. 

例如 : 


© regtest\.py 匹配 regtest.py 


e Ci\\Windows 匹配 C:\Windows 。 


重复 
你 已 经 看 过 了 前 面 的 *,+, {2}, {5,12} 这 几 个 匹配 重复 的 方式 了 。 下 面 是 正则 表达 式 中 所 有 的 
限定 符 (指定 数量 的 代码 ， 例 如 *, {5,12} 等 ) : 


表 2. 常 用 的 限定 符 


代码 /语法 说 明 
重复 零 次 或 更 多 次 
二 重复 一 次 或 更 多 次 
? 重复 零 次 或 一 次 
{n} 重复 n 次 
{n,} 重复 n 次 或 更 多 次 
{n,m} 重复 n 到 m 次 
下 面 是 一 些 使 用 重复 的 例子 : 


。 Windows\d+ 匹配 Windows 后 面 跟 1 个 或 更 多 数字 
e。 \^\W+ 匹配 一 行 的 第 一 个 单词 (或 整个 字符 串 的 第 一 个 单词 ， 具 体 匹 配 哪 个 意思 得 看 选项 


设置 ) 


~ 


>> 人 大 
子 付 关 


党 


要 想 查 找 数字 ， 字 母 或 数字 ， 空 白 是 很 简单 的 ， 因 为 已 经 有 了 对 应 这 些 字符 集合 的 元 字符 ， 
但 是 如 果 你 想 匹 配 没有 预定 义 元 字符 的 字符 集合 (比如 元 音字 母 a, e,i o,U ), 应 该 怎么 办 ? 


尺 简 单 ， 你 只 需要 在 方 括号 里 列 出 它们 就 行 了 ， 像 [aeiou] 就 匹配 任何 一 个 英文 元 音字 
pi 


我 们 也 可 以 轻松 地 指定 一 个 字符 范围 ， 像 [6-9] 代表 的 含意 与 \d 就 是 完全 一 致 的 : 一 位 
数字 ; 同 理 [a-zg-9A-Z_] 也 完全 等 同 于 \w (如 果 只 考虑 英文 的 话 ) 。 


下 面 是 一 个 更 复杂 的 表达 式 : 


\(?0\d{2}[) -J]?\d{8}° 


“ ("和 “ ) "也 是 元 字符 ， 后 面 的 分 组 节 里 会 提 到 ， 所 以 在 这 里 需要 使 用 转 义 。 


这 个 表达 式 可 以 匹配 几 种 格式 的 电话 号 码 ， 像 (010)88886666， 或 022-22334455， 或 
02912345678 等 。 我 们 对 它 进 行 一 些 分 析 吧 : 首先 是 一 个 转 义 字符 \( , 它 能 出 现 0 次 或 1 次 
(?) ,然后 是 一 个 0， 后 面 跟着 2 个 数字 (\d{2}) ， 然 后 是 ) 或 - 或 空格 中 的 一 个 ， 它 出 现 1 次 
或 不 出 现 (?) ， 最 后 是 8 个 数字 (\df8}) 。 


分 枝条 件 


不 幸 的 是 ， 刚 才 那 个 表达 式 也 能 匹配 010)12345678 或 (022-87654321 这 样 的 “不 正确 "的 格 
式 。 

要 解决 这 个 问题 ， 我 们 需要 用 到 分 枝条 件 。 正 则 表达 式 里 的 分 枝条 件 指 的 是 有 几 种 规则 ， 如 
果 满 足 其 中 任意 一 种 规则 都 应 该 当成 匹配 ， 具 体 方 法 是 用 | 把 不 同 的 规则 分 隔 开 。 听 不 明 
白 ? 没 关系 ， 看 例子 : 


QO\d{2}-\d{8}|O\d{3}-\d{7} 


这 个 表达 式 能 匹配 两 种 以 连 字号 分 隔 的 电话 号 码 : 


。 一 种 是 三 位 区 号 ，8 位 本 地 号 (如 010-12345678 ) 
。 一 种 是 四 位 区 号 ，7 位 本 地 号 ( 0376-2233445 ) 


\(?0\d{2}\)?[- ]?\df8}169N\df23[- ]?\d{8} 


这 个 表达 式 匹 配 3 位 区 号 的 电话 号 码 ， 其 中 区 号 可 以 用 小 括号 括 起 来 ， 也 可 以 不 用 ， 区 号 与 
本 地 号 间 可 以 用 连 字 号 或 空格 间隔 ， 也 可 以 没有 间隔 。 你 可 以 试 试用 分 枝条 件 把 这 个 表达 式 
扩展 成 也 支持 4 位 区 号 的 。 


\d{5}-\d{4}|\d{5} 


这 个 表达 式 用 于 匹配 美国 的 邮政 编码 。 美 国 邮编 的 规则 是 5 位 数字 ， 或 者 用 连 字 号 间隔 的 9 位 
数字 。 之 所 以 要 给 出 这 个 例子 是 因为 它 能 说 明 一 个 问题 : 使 用 分 枝条 件 时 ， 要 注意 各 个 条 件 
的 顺序 。 如 果 你 把 它 改 成 \d{5}|\d{5}-\d{4} 的 话 ， 那 么 就 只 会 匹配 5 位 的 邮编 (以 及 9 位 邮编 的 前 5 
位 )。 原 因 是 匹配 分 枝条 件 时 ， 将 会 从 左 到 右 地 测试 每 个 条 件 ， 如 果 满 足 了 某 个 分 枝 的 话 ， 就 
不 会 去 再 管 其 它 的 条 件 了 。 


分 组 


我 们 已 经 提 到 了 怎么 重复 单个 字符 (直接 在 字符 后 面 加 上 限定 符 就 行 了 ) ; 但 如 果 想 要 重复 
多 个 字符 又 该 怎么 办 ? 你 可 以 用 小 括号 来 指定 子 表达 式 (也 叫做 分 组 )， 然 后 你 就 可 以 指定 这 个 
子 表达 式 的 重复 次 数 了 ， 你 也 可 以 对 子 表达 式 进行 其 它 一 些 操作 (后 面 会 有 介绍 ) 。 


(\d{1,3}\. ){3}\d{1, 3} 


是 一 个 简单 的 IP 地 址 匹配 表达 式 。 要 理解 这 个 表达 式 ， 请 按 下 列 顺序 分 析 它 : \d{1,3} 匹配 
1 到 3 位 的 数字 ， (\df{1,3}\.){3} 匹配 三 位 数字 加 上 一 个 英文 句号 (这 个 整体 也 就 是 这 个 分 组 ) 
重复 3 次 ， 最 后 再 加 上 一 个 一 到 三 位 的 数字 (\d{1,3}) 。 


IP 地 址 中 每 个 数字 都 不 能 大 于 255. 经 常 有 人 问 我 , 01.02.03.04 这 样 前 面 带 有 0 的 数字 , 是 不 是 
正确 的 IP 地 址 呢 ? 答案 是 : 是 的 , IP 地 址 里 的 数字 可 以 包含 有 前 导 0 (leading zeroes). 

不 幸 的 是 ， 它 也 将 匹配 256.300.888.999 这 种 不 可 能 存在 的 IP 地 址 。 如 果 能 使 用 算术 比较 的 
话 ， 或 许 能 简单 地 解决 这 个 问题 ， 但 是 正则 表达 式 中 并 不 提供 关于 数学 的 任何 功能 ， 所 以 只 
能 使 用 宛 长 的 分 组 ， 选 择 ， 字 符 类 来 描述 一 个 正确 的 IP 地 址 : 


((2[0-4]\d|25[0-5]| [01]?\d\d?)\.){3}(2[0-4]\d|25[0-5] | [61]?\d\d?)°。 


理解 这 个 表达 式 的 关键 是 理解 2[6-4]\d|25[0-5]|[61]?\d\d? ， 这 里 我 就 不 细 说 了 ， 你 自己 应 
该 能 分 析 得 出 来 它 的 意义 。 


肥 义 


有 时 需要 查找 不 属于 某 个 能 简单 定义 的 字符 类 的 字符 。 比 如 起 查找 除了 数字 以 外 ， 其 它 任意 
字符 都 行 的 情况 ， 这 时 需要 用 到 反 尺 : 


表 3. 常 用 的 反 义 代码 


代码 /语法 说 明 
W 匹配 任意 不 是 字母 ， 数 字 ， 下 划 线 ， 汉 字 的 字符 
\S 匹配 任意 不 是 空白 符 的 字符 
D 匹配 任意 非 数 字 的 字符 
\B 匹配 不 是 单词 开头 或 结束 的 位 置 
[Wx] 匹配 除了 x 以 外 的 任意 字符 
[aeiou] 匹配 除了 aeiou 这 几 个 字母 以 外 的 任意 字符 
例子 : 


。 \S+ 匹配 不 包含 空白 符 的 字符 串 。 
e <a[^>]+> 匹配 用 尖 括 号 括 起 来 的 以 a 开头 的 字符 囊 。 


后 向 引用 


使 用 小 括号 指定 一 个 子 表 达 式 后 ， 匹 配 这 个 子 表 达 式 的 文本 (也 就 是 此 分 组 捕获 的 内 容 ) 可 以 在 
表达 式 或 其 它 程序 中 作 进 一 步 的 处 理 。 默 认 情 况 下 ， 每 个 分 组 会 自动 拥有 一 个 组 号 ， 规 则 
是 : 从 左 向 右 ， 以 分 组 的 左 括号 为 标志 ， 第 一 个 出 现 的 分 组 的 组 号 为 1， 第 二 个 为 2， 以 此 类 
推 。 

后 向 引用 用 于 重复 搜索 前 面 某 个 分 组 匹配 的 文本 。 例 如 ，\14 代表 分 组 1 匹配 的 文本 。 难 以 理 


解 ? 请 看 示例 : 


\b(\w+)\b\st+\1\b 


可 以 用 来 匹配 重复 的 单词 ， 像 go go, 或 者 kitty kitty 。 


这 个 表达 式 首先 是 一 个 单词 ， 也 就 是 单词 开始 处 和 结束 处 之 间 的 多 于 一 个 的 字母 或 数字 
(\b(\w+)\b) ， 这 个 单词 会 被 捕获 到 编号 为 1 的 分 组 中 ， 然 后 是 1 个 或 几 个 空白 符 (\s+) ， 最 
后 是 分 组 1 中 捕获 的 内 容 (也 就 是 前 面 匹配 的 那个 单词 ) (\1) 。 


你 也 可 以 自己 指定 子 表达 式 的 组 名 。 要 指定 一 个 子 表达 式 的 组 名 ， 请 使 用 这 样 的 语法 : (? 
<wWord>\w+) (或 者 把 尖 括 号 换 成 ' 也 行 : ”(?'Word'\w+)) ,这 样 就 把 \w+ 的 组 名 指定 为 word 
了 。 要 反 向 引用 这 个 分 组 捕获 的 内 容 ， 你 可 以 使 用 \k<word> ,所 以 上 一 个 例子 也 可 以 写成 这 
样 : 


\b(?<Word>\w+)\b\s+\k<Word>\b° 


使 用 小 括号 的 时 候 ， 还 有 很 多 特定 用 途 的 语法 。 下 面 列 出 了 最 常用 的 一 些 : 


表 4. 常 用 分 组 语法 


分 类 代码 /语法 说 明 
捕获 (exp) 匹配 exp, 并 捕获 文本 到 自动 命名 的 组 里 
匹配 exp, 并 捕获 文本 到 名 称 为 name 的 组 里 ， 也 可 以 写成 


0 (?'name'exp) 
(?:exp) 匹配 exp, 不 捕获 匹配 的 文本 ， 也 不 给 此 分 组 分 配 组 号 
/天守 
2 0 (?=exp) 匹配 exp 前 面 的 位 置 
(?<=exp) 匹配 exp 后 面 的 位 置 
(?!exp) 匹配 后 面 跟 的 不 是 exp 的 位 置 
(?<!exp) 匹配 前 面 不 是 exp 的 位 置 
注释 (? 这 种 类 型 的 分 组 不 对 正则 表达 式 的 处 理 产 生 任何 影响 ， 用 于 提 


#comment) ， 供 注释 让 人 阅读 
我 们 已 经 讨论 了 前 两 种 语法 。 


AA 一 


第 三 个 (?:exp) 不 会 改变 正则 表达 式 的 处 理 方 式 ， 只 是 这 样 的 组 匹配 的 内 容 不 会 像 前 两 种 那样 
被 捕获 到 某 个 组 里 面 ， 也 不 会 拥有 组 号 。 


“我 为 什么 会 想 要 这 样 做 ? ”一 一 好 问题 ， 你 觉得 为 什么 呢 ? 


零 帘 断言 


接 下 来 的 四 个 用 于 查找 在 某 些 内 容 (但 并 不 包括 这 些 内 容 ) 之 前 或 之 后 的 东西 ， 也 就 是 说 它们 像 
Wb 那样 用 于 指定 一 个 位 置 ， 这 个 位 置 应 该 满足 一 定 的 条 件 ( 即 断 言 )， 因此 它们 也 被 和 为 地 


最 好 还 是 拿 例 子 来 说 明 吧 : 
(?=exp) 
也 叫 零 帘 度 正 预测 先行 断言 ， 它 断言 自身 出 现 的 位 置 的 后 面 能 匹配 表达 式 eXxp。 比 如 \b\w+(? 


=ing\b) ， 匹 配 以 ing 结 尾 的 单词 的 前 面部 分 (除了 ing 以 分 )， 如 查找 I'm singing while 


you're dancing ， 时 ， 它 会 匹配 sing 和 danc 。 


(?<=exp) 也 叫 零 宽 度 正 回顾 后 发 断言 ， 它 断言 自身 出 现 的 位 置 的 前 面 能 匹配 表达 式 exp 。 
比如 (?<=\bre)\wt\b 会 匹配 以 re 开头 的 单词 的 后 半 部 分 (除了 re 以 外 的 部 分 )， 例 如 在 查 
找 reading a book 时 ， 它 匹配 ading 。 


假如 你 想 要 给 一 个 很 长 的 数字 中 每 三 位 间 加 一 个 过 号 (当然 是 从 右边 加 起 了 )， 你 可 以 这 样 查找 
需要 在 前 面 和 里 面 添加 过 号 的 部 分 : 


((?<=\d)\d{3})+\b 


用 它 对 1234567890 进 行 查找 时 结果 是 234567890 。 


下 面 这 个 例子 同时 使 用 了 这 两 种 断言 : 


(?<=\s)\d+(?=\s) 


匹配 以 空白 符 间隔 的 数字 (再 次 强调 ， 不 包括 这 些 空白 符 ) 。 


负 向 零 究 断言 


前 面 我 们 提 到 过 怎么 查找 不 是 某 个 字符 或 不 在 某 个 字符 类 里 的 字符 的 方法 ( 反 义 )。 但 是 如 果 我 
们 只 是 想 要 确保 某 个 字符 没有 出 现 ， 但 并 不 想 去 匹配 它 时 怎么 办 ? 例如 ， 如 果 我 们 想 查 找 这 
样 的 单词 -- 它 里 面 出 现 了 字母 q, 但 是 q 后 面 跟 的 不 是 字母 U, 我 们 可 以 尝试 这 样 : 


\b\w*q[^u]\w*\b 


匹配 包含 后 面 不 是 字母 U 的 字母 g 的 单词 。 但 是 如 果 多 做 测试 (或 者 你 思维 足够 敏锐 ， 直 接 就 
观察 出 来 了 )， 你 会 发 现 ， 如 果 q 出 现在 单词 的 结尾 的 话 ， 像 Iraq,Benq， 这 个 表达 式 就 会 出 

错 。 这 是 因为 [Au] 总 要 匹配 一 个 字符 ， 所 以 如 果 q 是 单词 的 最 后 一 个 字符 的 话 ， 后 面 的 
[Au] 将 会 匹配 q 后 面 的 单词 分 隔 符 (可 能 是 空格 ， 或 者 是 句号 或 其 它 的 什么 )， 后 面 的 \w*\b 
将 会 匹配 下 一 个 单词 ， 于 是 \p\w*q[^u]\w*\b 就 能 匹配 整个 Iraq fighting。 负 向 零 宽 断 言 能 解 
决 这 样 的 问题 ， 因 为 它 只 匹配 一 个 位 置 ， 并 不 消费 任何 字符 。 现 在 ， 我 们 可 以 这 样 来 解决 这 

个 问题 : 


\b\w*q(?!1Uu)\w*\b。 


零 宽度 负 预 测 先行 断言 (?1exp) ， 断 言 此 位 置 的 后 面 不 能 匹配 表达 式 exp 。 例 如 : \d{3} 
(?IN\d) 匹配 三 位 数字 ， 而 且 这 三 位 数字 的 后 面 不 能 是 数字 ; \p((?1abc)\w)+\b 匹配 不 包含 连 
续 字 符 串 abc 的 单词 。 


同 理 ， 我 们 可 以 用 (?<!lexp) , 零 宽度 负 回 顾 后 发 断言 来 断言 此 位 置 的 前 面 不 能 匹配 表达 式 exp; 
是 小 写 


(?<![a-z])N\df7} 匹配 前 面 不 是 小 写字 母 的 七 位 数字 。 


一 个 更 复杂 的 例子 : (3<=<(\w+)>).*(?=<W\1>) 匹配 不 包含 属性 的 简单 HTML 标 签 内 里 的 内 


个 ” 


e。 (?<=<(\wt)>) 指定 了 这 样 的 前 级 : 被 尖 括 号 括 起 来 的 单词 (比如 可 能 是 \) 
。 然后 是 .*( 任 意 的 字符 囊 ) 
。 最 后 是 一 个 后 级 (?=<\/\1>) 。 


注意 后 级 里 的 \/ ， 它 用 到 了 前 面 提 过 的 字符 转 义 ; 


\1 则 是 一 个 反 向 引用 ， 引 用 的 正 是 捕获 的 第 一 组 ， 前 面 的 (\w+) 匹配 的 内 容 ， 这 样 如 果 前 
组 实际 上 是 <b> 的 话 ， 后 组 就 是 </b> 了 “。 整 个 表达 式 匹 配 的 是 和 之 间 的 内 容 (再 次 提醒 ， 不 包 
括 前 级 和 后 组 本 身 )。 


注释 
小 括号 的 另 一 种 用 途 是 通过 语法 (?#Comment ) 来 包含 注释 。 
例如 : 
2\[0-4\]\d(?#200-249)|25\[0\-5\](\?#250-255)|\[01\]?\d\d?(?#0-199)。 
要 包含 注释 的 话 ， 最 好 是 启用 “忽略 模式 里 的 空白 符 ” 选 项 ， 这 样 在 编写 表达 式 时 能 任意 的 添加 
后 


空格 ，Tab， 换 行 ， 而 实际 使 用 时 这 些 都 将 被 忽略 。 局 用 这 个 选项 后 ， 在 # 后 面 到 这 一 行 结 
的 所 有 文本 都 将 被 当成 注释 忽略 掉 。 例 如 ， 我 们 可 以 前 面 的 一 个 表达 式 写 成 这 样 : 


{223 # 断言 要 匹配 的 文本 的 前 级 

<(\w+)># 0 He 
) # 前 级 结束 

2 # 匹配 任意 文本 

(?= # 断言 要 匹配 的 文本 的 后 级 


<\/\1>  # 查找 尖 括 号 括 起 来 的 内 容 : 前 面 是 一 个 "/"， 后 面 是 先前 捕获 的 标签 
) # 后 级 结束 


贪 区 与 懒惰 


当 正则 表达 式 中 包含 能 接受 重复 的 限定 符 时 ， 通 常 的 行为 是 (在 使 整个 表达 式 能 得 到 匹配 的 
前 提 下 ) 匹配 尽 可 能 多 的 字符 。 以 这 个 表达 式 为 例 : a.*b ， 它 将 会 匹配 最 长 的 以 a 开始 ， 以 
b 结束 的 字符 串 多 如 果 用 它 来 搜索 aabab 的 话 > 它 会 匹配 整个 字符 六 aabab ° 这 被 称 为 贪 
禁 匹 配 。 


有 时 ， 我 们 更 需要 懒 情 匹 配 ， 也 就 是 匹配 尽 可 能 少 的 字符 。 前 面 给 出 的 限定 符 都 可 以 被 转化 
为 懒惰 匹配 模式 ， 只 要 在 它 后 面 加 上 一 个 问号 3。 这 样 ,*? 就 意味 着 匹配 任意 数量 的 重复 ， 
但 是 在 能 使 整个 匹配 成 功 的 前 提 下 使 用 最 少 的 重复 。 现 在 看 看 懒 情 版 的 例子 吧 : 


a.*?b 


匹配 最 短 的 ， 以 a 开始 ， 以 b 结 束 的 字符 事 。 如 果 把 它 应 用 于 aabab 的 话 ， 它 会 匹配 
aab (第 一 到 第 三 个 字符 ) 和 ab (第 四 到 第 五 个 字符 ) 。 


代码 /语法 说 明 
*? 重复 任意 次 ， 但 尽 可 能 少 重复 
+? 重复 1 次 或 更 多 次 ， 但 尽 可 能 少 重复 
?3 重复 0 次 或 1 次 ， 但 尽 可 能 少 重复 
{n,m}? 重复 n 到 m 次 ， 但 尽 可 能 少 重 复 


fn? 重复 n 次 以 上 ， 但 尽 可 能 少 重复 


处 理 选项 
上 面 介 绍 了 几 个 选项 如 忽略 大 小 写 ， 处 理 多 行 等 ， 这 些 选项 能 用 来 改变 处 理 正 则 表达 式 的 方 
式 。 下 面 是 Python 中 常用 的 正则 表达 式 选 项 : 
表 6. 常 用 的 处 理 选项 
名 称 说 明 


re.IGNORECASE ”匹配 时 不 区 分 大 小 写 。 
更 改 人 和 $ 的 含义 ， 使 它们 分 别 在 任意 一 行 的 行 首 和 行 尾 匹配 ， 而 不 


re.MULTILINE 仅仅 在 整个 字符 串 的 开头 和 结尾 匹配 。( 在 此 模式 下 ,$ 的 精确 含意 是 : 
匹配 \n 之 前 的 位 置 以 及 字符 串 结束 前 的 位 置 .) 

re.DOTALL 更 改 .的 含义 ， 使 它 与 每 一 个 字符 匹配 ( 包括 换行 符 \n) 。 

re.VERBOSE 忽略 表达 式 中 的 非 转 义 空白 并 启用 由 # 标 记 的 注释 。 


re.DEBUG 显示 编译 表达 式 的 debug 信息 


平衡 组 /递归 匹配 


有 时 我 们 需要 匹配 像 ( 160 * ( 56 + 15 ) ) 这 样 的 可 诅 套 的 层次 性 结构 ， 这 时 简单 地 使 用 、 
(.+\) 则 只 会 匹配 到 最 左边 的 左 括 号 和 最 右边 的 右 括号 之 间 的 内 容 (这 里 我 们 讨论 的 是 贪 禁 模 
式 ， 懒 惰 模 式 也 有 下 面 的 问题 )。 假 如 原来 的 字符 串 里 的 左 括 号 和 右 括 号 出 现 的 次 数 不 相 等 ， 
比如 (5/(3+2)))， 那 我 们 的 匹配 结果 里 两 者 的 个 数 也 不 会 相等 。 有 没有 办 法 在 这 样 
的 字符 串 里 匹配 到 最 长 的 ， 配 对 的 括号 之 间 的 内 容 呢 ? 


为 了 避免 (和 (把 你 的 大 脑 彻底 搞 糊 涂 ， 我 们 还 是 用 尖 括 号 代替 圆 括号 吧 。 现 在 我 们 的 问题 变 成 
了 如 何 把 xx <aa <bbb> <bbb> aa> yy 这 样 的 字符 囊 里 ， 最 长 的 配对 的 尖 括 号 内 的 内 容 捕 获 出 
来 ? 


这 里 需要 用 到 以 下 的 语法 构造 : 


e。 (?'group') 把 捕获 的 内 容 命名 为 group, 并 压 入 堆栈 (Stack) 
。 (?'-group') 从 堆栈 上 弹出 最 后 压 入 堆栈 的 名 为 group 的 捕获 内 容 ， 如 果 堆 栈 本 来 为 空 ， 则 
本 分 组 的 匹配 失败 
。 (?(group)yeslno) 如 果 堆 栈 上 存在 以 名 为 group 的 捕获 内 容 的 话 ， 继 续 匹 配 yes 部 分 的 表达 
式 ， 否 则 继续 匹配 no 部 分 
。 (?31) 零 帘 负 向 先行 断言 ， 由 于 没有 后 缓 表达 式 ， 试 图 匹配 总 是 失败 
我 们 需要 做 的 是 每 碰 到 了 左 括 号 ， 就 在 压 入 一 个 "Open", 每 碰 到 一 个 右 括号 ， 就 弹出 一 个 ， 到 
了 最 后 就 看 看 堆栈 是 否 为 空 一 一 如 果 不 为 空 那 就 证 明 左 括号 比 右 括号 多 ， 那 匹配 就 应 该 失 
败 。 正 则 表达 式 引擎 会 进行 回溯 (放弃 最 前 面 或 最 后 面 的 一 些 字符 )， 尽 量 使 整个 表达 式 得 到 匹 
配 。 


< # 最 外 层 的 左 括号 
[A<>]* # 最 外 层 的 左 括号 后 面 的 不 是 括号 的 内 容 


(?'0pen'<) # 碰 到 了 左 括 号 ， 在 黑板 上 写 一 个 "Open" 


[^<>]* # 匹 配 左 括号 后 面 的 不 是 括号 的 内 容 
)+ 
( 
(?'-0pen'>) ”# 碰 到 了 右 括号 ， 擦 掉 一 个 "0pen" 
[^<>]* # 匹 配 右 括号 后 面 不 是 括号 的 内 容 
Ji 
Dy 
(?(Open)(?!)) # 在 遇 到 最 外 层 的 右 括号 前 面 ， 判 断 黑 板 上 还 有 没有 没 擦 掉 的 "0pen'" ; 如 果 还 有 ， 则 匹配 失 
> # 最 外 层 的 右 括号 
了 和 ” 








平衡 组 的 一 个 最 常见 的 应 用 就 是 匹配 HTML, 下 面 这 个 例子 可 以 匹配 吝 套 的 <div> 标签 : 


<div[^>]*>[^<>]*(((?'0pen'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(0pen)(?!))</di 


画 一 一 
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还 有 些 什 么 东西 没 提 到 


上 边 已 经 描述 了 构造 正则 表达 式 的 大 量 元 素 ， 但 是 还 有 很 多 没有 提 到 的 东西 。 下 面 是 一 些 未 
提 到 的 元 素 的 列表 ， 包 含 语法 和 简单 的 说 明 。 你 可 以 在 网 上 找到 更 详细 的 参考 资料 来 学 习 它 
们 -- 当 你 需要 用 到 它们 的 时 候 。 

如 果 你 想 了 解 更 多 关于 Python 中 正则 表达 式 的 应 用 的 话 ， 你 可 以 下 载 Python Docs 进行 阅 
读 ， 或 者 也 可 以 点 此 此 处 进行 在 线 阅 读 。 


表 7. 尚 未 详细 讨论 的 语法 


代码 /语法 说 明 


\a 报警 字符 (打印 它 的 效果 是 电脑 嘲 一 声 ) 

\b 通常 是 单词 分 界 位 置 ， 但 如 果 在 字符 类 里 使 用 代表 退 格 
vt 制 表 符 ，Tab 

NT 回 车 

\V 坚 向 制 表 符 

\f 换 页 符 

\n 换行 符 

\e Escape 

\Onn ASCII 代 码 中 八进制 代码 为 nn 的 字符 

\xnn ASCII 代 码 中 十 六 进 制 代码 为 nn 的 字符 

\unnnn Unicode 代 码 中 十 六 进 制 代码 为 nnnn 的 字符 

\cN ASCII 控 制 字 符 。 比 如 \cC 代 表 Ctrl+C 

A 字符 囊 开 头 (类 似 ^， 但 不 受 处 理 多 行 选项 的 影响 ) 
v 字符 串 结 尾 或 行 尾 (不 受 处 理 多 行 选 项 的 影响 ) 

\ 字符 串 结尾 (类 似 $， 但 不 受 处 理 多 行 选项 的 影响 ) 
\G 当前 搜索 的 开头 

\pfname} Unicode 中 命名 为 name 的 字符 类 ， 例 如 \p{lsGreek} 
(?>exp) 贪 禁 子 表达 式 

0 平衡 组 

(?im-nsx:exp) ”在 子 表达 式 exp 中 改变 处 理 选项 

(?im-nsx) 为 表达 式 后 面 的 部 分 改变 处 理 选项 


把 exp 当 作 零 宽 正 向 先行 断言 ， 如 果 在 这 个 位 置 能 匹配 ， 使 用 yes 作 为 
此 组 的 表达 式 ; 否则 使 用 no 


(?(exp)yes) 同上 ， 只 是 使 用 空 表达 式 作为 no 

(? 如 果 命 名 为 name 的 组 捕获 到 了 内 容 ， 使 用 yes 作 为 表达 式 ; 否则 使 用 
( 

( 


(?(exp)yeslno) 


De) 


name)yeslno) no 


?(name)yes) 同上 ， 只 是 使 用 空 表达 式 作为 no 


网 上 的 资源 及 本 文 参考 文献 


。 精通 正则 表达 式 (第 3 版 ) 

。 微软 的 正则 表达 式 教 程 

。 Python Re Module Reference 

。 专业 的 正则 表达 式 教学 网 站 (英文 ) 
最 后 还 是 还 需要 感谢 原文 作者 的 贡献 : 


e。 正则 表达 式 30 分 钟 入 门 教程 (原文 ) 


DS) 
(A 


更 新 纪录 


10. 


11. 


， 2006-3-27 第 一 版 
，2006-10-12 第 二 版 


o 修正 了 几 个 细节 上 的 错误 和 不 准确 的 地 方 

o 增加 了 对 处 理 中 文 时 的 一 些 说 明 

o 更 改 了 几 个 术语 的 翻译 (采用 了 MSDN 的 翻译 方式 ) 
o 增加 了 平衡 组 的 介绍 

o 放弃 了 对 The Regulator 的 介绍 ， 改 用 Regex Tester 


. 2007-3-12 V2.1 


@ 修正 了 几 个 小 的 错误 
o 增加 了 对 处 理 选项 (RegexOptions) 的 介绍 


. 2007-5-28 V2.2 


o 重新 组 织 了 对 零 宽 断言 的 介绍 
o。 删除 了 几 个 不 太 合 适 的 示例 ， 添 加 了 几 个 实用 的 示例 
o 其 它 一 些微 小 的 更 改 


. 2007-8-3 V2.21 


o 修改 了 几 处 文字 错误 

o 修改 /添加 了 对 $,\b 的 精确 说 明 

o 承认 了 作者 是 个 骗子 

o 给 RegexTester 添 加 了 Singleline 选 项 的 相关 功能 


. 2008-4-13 v2.3 


。 调整 了 部 分 章节 的 次 序 
o 修改 了 页 面 布局 ， 删 除了 专门 的 参考 节 
(©) 针对 读者 的 反馈 ?9 调整 了 部 分 内 容 


. 2009-4-11 v2.31 


。 修改 了 几 处 文字 错误 
。 添 加 了 一 些 注释 说 明 
。 调整 了 一 些 措 记 


. 2011-8-17 v2.32 


o 更 改 了 工具 介绍 ， 换 用 自行 开发 的 正则 表达 式 测试 器 


. 2013-1-10 v2.33 


o 说 明和 包含 前 导 0 的 IP 地 址 是 合法 的 
2015-10-04 v3.00 
o Tyrael 对 原版 进行 引用 扩展 
2016-05-16 v3.10 
o 增加 Python 语言 正则 表达 式 的 相关 介绍 
o 增加 在 线 和 离线 工具 支持 介绍 


o 对 3.00 版 本 进行 板式 美化 


